Model Selection

Self-supervised visual representation

# Self-supervised visual representation

Webssl Dino3b Full2b 224

This is a 3-billion parameter vision Transformer model trained on 2 billion web images through DINOv2 self-supervised learning, capable of learning powerful visual representations without language supervision.

Image Classification

Webssl Dino300m Full2b 224

A 224-resolution Vision Transformer model based on 2 billion MetaCLIP data, trained using DINOv2 self-supervised learning method

Image Classification

Webssl Dino3b Light2b 224

A 3-billion parameter Vision Transformer model trained using DINOv2 self-supervised learning on lightly filtered web-scale image data, without language supervision.

Image Classification

Webssl Dino3b Heavy2b 224

A 3-billion parameter vision Transformer model trained on 2 billion carefully curated MetaCLIP data using DINOv2 self-supervised learning framework

Image Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase